[Home] AI로 돌아가기
[관련 링크] Reinforcement Learning - 강화학습
[관련 링크] RLHF / RLAIF

보상모델 (Reward Model)

보상모델은 명시적인 정답이 없는 환경에서, 주어진 출력(예: 텍스트 응답)의 품질을 정량적으로 평가하기 위해 학습된 예측 모델이다. 강화학습의 보상 함수가 정의되어 있지 않거나 직접 계산하기 어려울 때, 인간 또는 AI 피드백을 바탕으로 이 보상모델을 학습하여 대체한다.

1) 보상모델의 개념

보상모델은 입력(프롬프트)과 응답 쌍에 대해 '얼마나 좋은 응답인가?'를 판단하여 수치적인 점수(보상)를 예측하는 모델이다. 이 모델은 보통 인간 또는 AI가 직접 비교 평가한 데이터를 기반으로 훈련된다. 이후 강화학습(RL)에서 보상 함수로 사용된다.

2) 주요 구성 요소

3) 학습 절차

보상모델은 일반적으로 다음 절차를 통해 학습된다.

  1. 사전 학습된 언어모델로 여러 개의 응답을 생성한다.
  2. 사람 또는 AI가 응답 간의 선호도를 비교하여 순위를 매긴다.
  3. 이 데이터를 기반으로 보상모델을 학습한다 (예: 선호 기반 페어와이즈 손실 사용).
  4. 보상모델은 이후 RL의 보상 함수로 사용된다.

4) 강화학습과의 통합

보상모델은 RLHF(RL with Human Feedback) 또는 RLAIF(RL with AI Feedback)에서 다음과 같은 방식으로 사용된다.

5) 활용 사례

“보상모델은 인공지능이 ‘좋은’ 출력을 정의하고 배울 수 있도록 해주는 중요한 구성 요소다.” – OpenAI 기술 문서